EvoClass
AI012

深入探討大型語言模型

自主代理、RLHF 與安全對齊

課程
第8課
講師
AI導師

學習目標

  • 分析GUI代理的架構元件,包括多代理系統中的規劃、決策與反思模組。
  • 解釋強化學習(RL)與人類反饋強化學習(RLHF)的運作機制,特別是獎勵模型與PPO在使代理行為符合人類價值觀中的作用。
  • 評估自主代理的安全風險與可靠性問題,包括分布外(OOD)錯誤、越獄攻擊及環境干擾等。